【机器翻译】- 面临的挑战

面临的挑战

NLP常见的问题

见trick-NLP

机器翻译独有的问题

歧义

自然语言中普遍存在的歧义和未知现象

  • 句法结构歧义/词汇歧义/语用歧义 …
  • 新的词汇、术语、结构、语义

机器翻译不仅仅是字符串的转换
不同语言之间文化的差异
现有方法无法表示和利用世界知识和常识

bad case

未登录词(OOV)的影响以及策略

NMT 系统为了能够控制计算的复杂度,有
着一个固定大小的词汇表,通常会将词汇表限制在 30k 到 80k 之间,这就导致了其在翻译未登录词时有着严重的不足。

对于未出现在该词汇表中的词,NMT系统用 UNK 标记来替代。结果,NMT 系统不仅无法将它们翻译准确,而且破坏了句子的结构特征

更多,见 ML/NLP/OOV

策略

长距离依赖

神经机器翻译有两个关键技术,一个是 gating,另外还有一个是 attention,这两个特别适合处理语言中长距离调序,生成的译文要比传统的方式生成的译文流利很多。

同步翻译/实时翻译

Learning to Translate in Real-time with Neural Machine Translation

多语种

机器翻译的解不唯一,而且始终存在的人为的标准

机器翻译不仅仅是字符串的转换

  • 不同语言之间文化的差异
  • 现有方法无法表示和利用世界知识和常识

翻译诗歌、散文和小说等高难度文艺作品

食品或菜单名的翻译:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
|馒头:  steamed bread |  Steamed bun |
| 夫妻肺片 | Husband and wife’s lung slices | Fuqifeipian/ Spicy beef |
| 童子鸡 | Young lad chicken | Spring chicken/ Broiler chicken |


2011年,中国日报,翻译效果
原文:WASHINGTON - China and the United States have far more shared interests than differences, and nothing can hold back the momentum of cooperation, Vice-Premier Wang Qishan said on Monday. He made the remark at the opening of the third round of the China-US Strategic & Economic Dialogue in the US capital.
google翻译:华盛顿-中国和美国有更多的共同利益大于分歧,没有什么能阻挡历史的合作势头,国务院副总理王岐山周一表示。 他在中国的中美战略与经济对话在美国首都第三轮开幕时作上述表示。
SYSTRAN:华盛顿-中国和美国比区别有分享兴趣,并且什么都不能阻止合作的动量,在星期一,Wang Qishan 副总理说。 他发表了这个评论在中美战略&经济对话的第三个回合的开头在美国首都。


原文:Beijing made a third solemn representation to Manila and warned that it is hard to be optimistic about a territorial impasse over an island. Authorities say they have prepared for any escalation of the situation by Manila.
Google Translator (2012.5.8): 北京提出了第三次严正交涉,马尼拉,并警告说,这是大约一个多岛屿的领土僵局难以乐观。当局说,他们已经准备为任何升级的情况下由马尼拉。
Google Translator 2013.5.7:北京做了第三马尼拉严正交涉,并警告说,这是很难被看好在一个小岛的领土僵局。当局说,他们已经准备任何马尼拉局势升级。
SYSTRAN (2012.5.8):北京交涉第三庄严的向马尼拉并且警告是乐观对在海岛的一个领土僵局是难。 当局说他们为这个情况的所有逐步升级做准备由马尼拉。

评价标准

机器翻译的解不唯一,而且始终存在的人为的标准